On se rend compte avec ces imputations, du fait que la méthode "most frequent value" n'est pas adaptée à notre dataset. en effet, la valeur la plus fréquente est un outlier (0 pour le ph par exemple).

De plus la médiane est équivalente à la moyenne.

On se concentre donc sur la valeur moyenne et on abandonne la "most frequent value" et la médiane.

Iterative Imputer

Nous allons ici utiliser une imputation multivariable sur les données ayant max 2 valeurs manquantes.

Stochastic regression - multivariate feature imputation

Model Testing

Random Forest

We know usually we tend to end with random forest. However we wanted to test several datasets, given the ability of random forests to ability to match unscaled data it will help us to prune some dataset for the next models.

SVM

Extreme random forest

KNN

Quadratic Discriminant Analysis

Synthesis table